深入了解数据人才 | 中国数据人才白皮书
数据工作者作为大家求职的热门岗位,需要什么样的人才呢?又怎么衡量自己是否符合招聘要求呢?现在让我们来深入了解下数据工作者吧。
数据人才
The world's most valuable resource is no longer oil, but data.
数据即资源!数据工作者的稀缺性与重要性也被逐渐凸显出来。如何让数据工作者成为更具竞争力的数据人才,在工作中发挥个人最大价值,从而实现良好的职业发展,这是每个数据工作者去思考的问题。相信,这篇文章可以给你一些指导思路。
数据工作者该如何定义
知识工作者:以知识资源为主要资本积累,基于知识发挥生产力和商业价值的一类人群。
数据工作者:知识工作者的一种,基于知识和工具开展工作,对数据进行加工和利用,解决问题并创造价值。
内容预览
初识数据人才
数据人才画像
数据人才对未来的期望
如何成为 头部数据人才
1
初识数据人才
首先我们通过 成长经历 及 目前现状 两个维度来对数据人才这一新型族群有一个初步的了解。
1.1
成长历程
数据工作者拥有怎样的专业背景与教育背景
多元化专业背景,理工科人才依旧是主力
数据人才的专业背景呈现出多元化特点,并不仅仅局限于某一专门学科,可以说数据处理技术已经渗透到各个专业领域。然而,在数据人才多元化的专业背景中,依然可以看出计算机类、数理统计及工程类学科占比总计超过60%。足以看出,偏理工学科背景的人才,具备良好的数理统计基础、逻辑思维与编程能力。
优质院校占据半壁江山,市场供给质量较高
与其他人才群体相比,海外院校与国内985/211院校占比接近50%,2位数据专业人才中就有1位来自海外院校或国内985/211院校,从侧面反映出数据人才群体整体供给质量较高。
1.2
目前现状
数据人才分布主要集中在哪些城市,他们聚集在哪些类型的行业,性别是否有明显的差异,工作经验与工作满意度如何,这些问题亦是企业、学校与个人关注的重点。
数据人才的分布与行业及城市的发展程度呈现高度相关性
从行业分布来看,数据人才主要集中在数据分析需求较高的行业,比如,互联网、科技金融、零售等;同时,随着高科技赋能现代化商业场景,信息化战略的实施达到了一定成效,数据处理技术得以在此基础上发挥其良好的效用。
从地域分布来看,数据人才主要分布在高科技企业较为集中的城市,比如,北京、上海、广州、深圳、杭州等城市;同时,同时数据人才已经不再是一线城市的独宠,二线城市的实力也在增强。
数据工作亦受女性青睐
在传统的高科技行业的技术岗位中,男性工作者数量普遍具有更高占比,且与女性数量有较大差异。然而在上图中可以看出,每3位数据人才中就有1位女性,与科技行业的其他技术岗位相比,女性占比更高。
数据人才的主要来源
从上图分布可以看出,有接近50%的人目前具有3年以下工作经验,从侧面反映出数据人才群体中职场新人居多;同时,有30%的人具备超过5年的工作经验,反映出目前数据人才中的另一主要人群来自于企业中传统岗位的人才转型。职场新人和企业内部转型员工是数据人才的主要来源
2
数据人才画像
成为一名优秀的人才需要兼备硬实力与软实力。那想要成为一名数据工作者应该具有哪些硬实力与哪些软实力呢?
在数据人才的硬实力方面,从常用的数据科学理论知识、数据分析的工作栈、数据处理的方法与步骤及主流软件的使用等四个方面分析了数据人才的硬实力。
在数据人才的软实力方面,从思维、影响、适应和执行四个构面,108个个性特质和行为风格去评估和预测参与调研的数据人才的胜任力潜能,从而充分了解数据人才的软实力。
本文主要介绍数据工作者应该具备的硬实力,给想要成为数据工作者的学习者提供技能上的提升参考。
数据人才的知识技能
常用的数据科学理论知识
调研结果表明,数据工作者最常用的数据科学方法是线性回归、逻辑回归以及决策树,这三种方法也是数据分析学科中最经典的模型,也是数据人才在解决问题的过程中首选的方法。这表明,数据人才的知识门槛并非想象的那么高。
数据处理的目的与步骤
通过对数据工作的应用目的分析可知,清洗整理数据、统计描述以及收集数据是最常用的三个应用目的。其中,收集数据以及清洗整理数据一般是数据处理的第一步,统计描述是对统计分析结果进行分析及解释。
从数据人才在工作中的步骤来看,大部分工作中都涉及基础步骤,而随着步骤本身的复杂程度提高,工作中涉及到这些步骤的人的比例也有了显著的下降。调研结果显示,在工作中,越复杂的步骤使用的人越少,这从侧面也为数据人才提升自身竞争力提供了明确的方向。
数据处理的工作栈
从工具的常见程度和重要程度对数据处理的各个工具栈进行调研,这些工具主要包括:Python、 SQL、 Excel、Hadoop/Hive/Pig、R、Jupyter Notebooks、Tableau、Spark/MLlib、Java等。
实际数据分析工作中,数据人才需要将目标分解为对数据的查询、清洗、建模分析等工作任务。Excel、SQL、Python 三者相辅相成,助力数据人才根据实际业务需求,选择相应的工具栈完成任务。
此处需要特别说明的是 Jupyter Notebook 虽然在国内的流行程度还不高,但已经受到了大部分数据工作者的重视,相信他会被越来越多的数据人才所应用。
用 Python 做数据分析
Pandas 主要被用于数据读取、清洗预处理等操作;Numpy 提供了许多高级的数值编程API,被用于完成更复杂的数据处理任务;Matplotlib 是一个基础的绘图库,可以协助数据工作者完成数据可视化任务。
Pandas、Numpy 及 Matplotlib 是用Python编程的数据人才最常用的3个工具包。
3
数据人才对未来的期望
双通道职业发展的期望
根据调研结果分析,有48%的数据人才未来期望成为高管/创始人,成为公司或团队的领头羊。有42%-43%的数据人才以工程师、咨询师作为自己的职业目标,依托精湛的技术获取自身满足感与事业成就感。相较于其他人才群体,数据人才对于未来的职业发展通道更偏好于走专业路线。
未来三年内继续学习深造
有超过7成的数据人才倾向自己未来三年内要继续学习和深造,这也充分反映出数据人才对自我提升的较强意愿。
偏好阅读及网络碎片化知识的方式充电
数据分析行业的算法、技术与工具的更新迭代速度较快,调研结果表明,有三分之一的数据人才每天学习两个小时以上。
数据人才获取知识的途径比较综合,不仅以传统阅读的方式获取系统知识,在各种交流网站及微信朋友圈中吸收碎片化知识也是主要渠道。
4
如何成为头部数据人才
头部数据人才:以知识技能(硬实力)为横轴,以胜任力潜能为纵轴(软实力),原点以两个指数各自的均值,得到数据人才评估的坐标系,落在第一象限的即为头部数据人才。即头部数据人才的软硬实力皆高于均值。调查显示,头部数据人才约占22%。
其他数据人才:除头部数据人才外的其他
来源更优
调查显示,头部数据人才来源更优,有35%的头部数据人才拥有硕士及以上学历,同时有50%的头部数据人才来源于985/211高校。
头部数据人才 | 其他数据人才 | |
硕士及以上 | 35% | 20% |
985/211 | 50% | 低于40% |
知识技能更强
头部人才知识技能(硬实力)与胜任力潜能(软实力)上同样优于其余数据人才,在这里我们重点关注知识技能方面,给大家一些指导意见,如果想成为一位头部数据人才,需要往哪方面努力?
数据人才的需要掌握的知识技能
知识技能上的均值差异
对比发现,在数学与统计分析和机器学习相关知识技能方面,头部人才均值都要优于其他数据人才,但同时我们可以看到,两者之间的差距在机器学习领域表现更为突出。
机器学习在数据工作中的运用不仅可以更好地做一系列的预测或判断,还能自动化理解并捕捉非结构化数据(如图像,文本,语言等)中的信息,从而为进一步的挖掘与分析奠定了基础,因此机器学习是非常重要的一部分数据专业能力。
这也就告诉我们想要成为头部数据人才,必须对机器学习的内容有了解涉略。
常用算法差别
在各个算法的常用性方面,线性回归作为最基础的数据分析模型,使用频率基本一致,而在较为复杂的算法方面,两者之间的使用频率有明显的差异。这也就建议学习者在复杂算法增加学习投入,提升自己专业技能。
自我提升投入时间差异
这里有一项很有意思的调查,是调查数据工作者每天的学习时间,经过对比发现,头部数据人才之所以是头部人才,大概率是因为他们在提升自我学习上花了更多的时间。
总结
成为一名数据人才非一日之功,希望以上四个方面能够为学习者提供一定的帮助作用与借鉴价值,同时你还要有着将工具、技术与胜任力潜能融为一体的深入理解。身处 AI 与 大数据时代—“这是一个最好的时代,也是一个最坏的时代”! 数据分析师在业内需求巨大,对于任何愿意从事这一工作的人来说,这依旧是一个心照不宣的选择!
写到后边
文章内容来源《2018年数据人才白皮书》,该书由中国领先的数据科学平台科赛网与国际顶级咨询公司韦莱韬悦共同策划与制作。作者自己在读这本书时,受到了极大的启发,把它推荐给朋友读,也有相同的感受。于是,萌生了把书中内容提炼,总结的想法,于是有了今天的文章。
在这里,Datawhale面对广大学习者,对书中内容进行了筛选与总结,将对学习者自身有价值的内容提炼出来,并做了部分内容取舍后,编辑了这篇文章的结构内容。意在给广大学习者提供学习指导。
需要说明的是,对该书的引用已经经过官方授权,若有疑问,可后台联系我们。
作者
张峰,安徽工业大学研究生。Datawhale团队成员,Datawhale优秀回答者。熟悉机器学习、数据挖掘、模式识别及计算机视觉等领域知识;擅长于机器学习、数据挖掘等经典常用算法的实践应用。
马晶敏,上海交通大学研究生。Datawhale核心成员,Datawhale团队负责人,目前从事运筹优化研究,主要设计算法解决路径调度问题。
图片/《2018年数据人才白皮书》
文字/张峰 马晶敏
Datawhale
和学习者一起成长
长按扫码关注我们